Mestrado Profissional em Administração
IFMG - Campus Formiga
13 de agosto de 2024
População x Amostra
Escrevemos nosso modelo populacional (simples) como
\[ y_i = \beta_0 + \beta_1 x_i + u_i \]
e nosso modelo de regressão estimado com base na amostra como
\[ y_i = \hat{\beta}_0 + \hat{\beta}_1 x_i + e_i \]
Um modelo de regressão estimado produz estimativas para cada observação:
\[ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i \]
o que nos dá a reta de melhor ajuste através do conjunto de dados.
População
Relação na População
\[ y_i = 2.53 + 0.57 x_i + u_i \]
Amostra 1: 30 observações
Relação na População
\(y_i = 2.53 + 0.57 x_i + u_i\)
Relação na Amostra
\(\hat{y}_i = 2.36 + 0.61 x_i\)
Amostra 2: 30 observações
Relação na População
\(y_i = 2.53 + 0.57 x_i + u_i\)
Relação na Amostra
\(\hat{y}_i = 2.79 + 0.56 x_i\)
Amostra 3: 30 observações
Relação na População
\(y_i = 2.53 + 0.57 x_i + u_i\)
Relação na Amostra
\(\hat{y}_i = 3.21 + 0.45 x_i\)
Simulação de Monte Carlo
Em média, nossas retas de regressão amostrais correspondem bem à reta populacional.
No entanto, retas individuais (amostras) podem realmente errar o alvo.
Diferenças entre amostras individuais e a população levam à incerteza para o econometrista.
Resposta
Incerteza importa.
\(\hat{\beta}\) em si é uma variável aleatória, que varia de amostra para amostra aleatória. Quando pegamos uma amostra e estimamos um modelo de regressão, não sabemos se é uma amostra ‘boa’ (\(\hat{\beta}\) está próximo de \(\beta\)) ou uma ‘amostra ruim’ (A amostra difere muito da população).
Incerteza
Estimar a incerteza é um conceito-chave em Econometria.
Estimativa de erros padrão para nossas estimativas.
Teste de hipóteses.
Correção para heteroscedasticidade e autocorrelação.
Primeiro, vamos atualizar como obdemos essas estimativas (incertas) em modelos de regressão.
Estimador
Podemos estimar uma reta de regressão em R (lm(y ~ x, data frame)) e Python (smf.ols(y ~ x, data).fit()). Mas de onde vêm essas estimativas?
Alguns slides anteriores:
\[ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i \]
Que nos fornece a reta de melhor ajuste ao conjunto de dados.
Mas o que queremos dizer com “reta de melhor ajuste”?
O Que queremos dizer com “reta de melhor ajuste”?
\(\text{SSE} = \sum_{i = 1}^{n} e_i^2\quad\) sendo \(\quad e_i = y_i - \hat{y}_i\)
Baseado em um conjunto de hipóteses (razoavelmente aceitáveis), o estimdor de MQO:
Para qualquer reta estimada \(\left(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\right)\), podemos calcular os erros: \(e_i = y_i - \hat{y}_i\)
Para qualquer reta estimada \(\left(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\right)\), podemos calcular os erros: \(e_i = y_i - \hat{y}_i\)
Para qualquer reta estimada \(\left(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\right)\), podemos calcular os erros: \(e_i = y_i - \hat{y}_i\)
Formalmente
\[ \min_{\hat{\beta}_0,\, \hat{\beta}_1} \text{SSE} = \sum_i e_i^2 \]
\[ \begin{align} e_i^2 &= \left( y_i - \hat{y}_i \right)^2 = \left( y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i \right)^2 \\ &= y_i^2 - 2 y_i \hat{\beta}_0 - 2 y_i \hat{\beta}_1 x_i + \hat{\beta}_0^2 + 2 \hat{\beta}_0 \hat{\beta}_1 x_i + \hat{\beta}_1^2 x_i^2 \end{align} \]
Lembrete Minimizar uma função multivariada requer (1) derivadas de primeira ordem iguais a zero (as condição de 1.super[a]-ordem) e (2) derivada segunda negativa (condição de segunda ordem, concavidade voltda para cima).
Formalmente
Estamos chegando perto. Precisamos minimizar a SSE.
Mostramos como a SSE se relaciona com a amostra (os dados: \(x\) e \(y\)) e com os estimadores (i.e., \(\hat{\beta}_0\) e \(\hat{\beta}_1\)).
\[ \text{SSE} = \sum_i e_i^2 = \sum_i \left( y_i^2 - 2 y_i \hat{\beta}_0 - 2 y_i \hat{\beta}_1 x_i + \hat{\beta}_0^2 + 2 \hat{\beta}_0 \hat{\beta}_1 x_i + \hat{\beta}_1^2 x_i^2 \right) \]
\[ \begin{align} \dfrac{\partial \text{SSE}}{\partial \hat{\beta}_0} &= \sum_i \left( 2 \hat{\beta}_0 + 2 \hat{\beta}_1 x_i - 2 y_i \right) = 2n \hat{\beta}_0 + 2 \hat{\beta}_1 \sum_i x_i - 2 \sum_i y_i \\ &= 2n \hat{\beta}_0 + 2n \hat{\beta}_1 \overline{x} - 2n \overline{y} \end{align} \]
sendo \(\overline{x} = \frac{\sum x_i}{n}\) e \(\overline{y} = \frac{\sum y_i}{n}\) as médias amostrais de \(x\) e \(y\).
Formalmente
\[ \dfrac{\partial \text{SSE}}{\partial \hat{\beta}_0} = 2n \hat{\beta}_0 + 2n \hat{\beta}_1 \overline{x} - 2n \overline{y} = 0 \]
o que implica em:
\[ \hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x} \]
Agora precisamos encontrar \(\hat{\beta}_1\).
Tomamos a derivada da SSE em relação a \(\hat{\beta}_1\):
\[ \begin{align} \dfrac{\partial \text{SSE}}{\partial \hat{\beta}_1} &= \sum_i \left( 2 \hat{\beta}_0 x_i + 2 \hat{\beta}_1 x_i^2 - 2 y_i x_i \right) = 2 \hat{\beta}_0 \sum_i x_i + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i \\ &= 2n \hat{\beta}_0 \overline{x} + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i \end{align} \]
Formalmente
Igualamos a derivada a zero:
\[ \dfrac{\partial \text{SSE}}{\partial \hat{\beta}_1} = 2n \hat{\beta}_0 \overline{x} + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i = 0 \]
Como \(\hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x}\), temos que
\[ 2n \left(\overline{y} - \hat{\beta}_1 \overline{x}\right) \overline{x} + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i = 0 \]
fazendo a multiplicação, temos:
\[ 2n \overline{y}\,\overline{x} - 2n \hat{\beta}_1 \overline{x}^2 + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i = 0 \]
\[ \implies 2 \hat{\beta}_1 \left( \sum_i x_i^2 - n \overline{x}^2 \right) = 2 \sum_i y_i x_i - 2n \overline{y}\,\overline{x} \]
\[ \implies \hat{\beta}_1 = \dfrac{\sum_i y_i x_i - 2n \overline{y}\,\overline{x}}{\sum_i x_i^2 - n \overline{x}^2} = \dfrac{\sum_i (x_i - \overline{x})(y_i - \overline{y})}{\sum_i (x_i - \overline{x})^2} \]
Fim.
Estimadores de MQO
Agora temos os estimadores OLS para a inclinação (coeficiente angular):
\[ \hat{\beta}_1 = \dfrac{\sum_i (x_i - \overline{x})(y_i - \overline{y})}{\sum_i (x_i - \overline{x})^2} \]
e o intercepto:
\[ \hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x} \]
E sabemos de onde vem a parte dos mínimos quadrados do método dos Mínimos Quadrados Ordinários. 🎊
Revisão: Função Densidade de Probabilidade
Lembre-se de que usamos funções densidade de probabilidade (FDPs) para descrever a probabilidade que uma VA numérica contínua assuma um intervalo de valores. (A área total = 1.)
Esses FDPs caracterizam distribuições de probabilidade, e as distribuições mais populares recebem nomes (por exemplo, normal, t-Student, Gama).
A probabilidade de uma VA normal padrão assumir um valor entre -1,96 e 1,96: \(\mathop{\text{P}}\left(-1,96 \leq X \leq 1,96\right) = 0,95\)
Qual estimador selecionar?
Imagine que estamos tentando estimar um parâmetro desconhecido \(\beta\), sendo que conhecemos as distribuições de amostragem de 3 estimadores concorrentes. Qual deles devemos escolher?
Quais as Propriedades de um bom Estimador?
Em média (retirando muitas amostras e calculando o estimador), o estimador acerta o valor correto?
\[ \mathop{\text{Viés}}_\beta \left( \hat{\beta} \right) = \mathop{\boldsymbol{E}}\left[ \hat{\beta} \right] - \beta \]
Estimador Não Viesado: \(\mathop{\boldsymbol{E}}\left[ \hat{\beta} \right] = \beta\)
Estimador Viesado: \(\mathop{\boldsymbol{E}}\left[ \hat{\beta} \right] \neq \beta\)
Quais as Propriedades de um bom Estimador?
As tendências centrais (meios) de distribuições concorrentes não são as únicas coisas que importam. Também nos preocupamos com a variância de um estimador.
\[ \mathop{\text{Var}} \left( \hat{\beta} \right) = \mathop{\boldsymbol{E}}\left[ \left( \hat{\beta} - \mathop{\boldsymbol{E}}\left[ \hat{\beta} \right] \right)^2 \right] \]
Os estimadores de variância mais baixa significam que obatemos estimativas mais próximas da média em cada amostra.
Quais as Propriedades de um bom Estimador?
Quais as Propriedades de um bom Estimador?
Resposta 2: Variância
O tradeoff Viés-Variância
Devemos estar dispostos a assumir um pouco de viés para reduzir a variância?
Em Econometria, geralmente preferimos estimadores não viesados (ou consistentes).
Mas outras disciplinas (especialmente Ciência da Computação) “pensam” um pouco mais sobre esse tradeoff.
Viés e Variância - Aprendizagem de Máquina/Estatísica
Viés: Erro sistemático causado por suposições simplificadas do modelo. Modelos simples têm alto viés e tendem a subajustar (underfitting) os dados.
Variância: Sensibilidade do modelo às variações nos dados de treino. Modelos complexos têm alta variância e tendem a sobreajustar (overfitting) os dados.
Trade-off:
Objetivo em ML: Encontrar o equilíbrio que minimiza o erro total, garantindo precisão e capacidade de generalização.
Propriedades
Como você já deve ter adivinhado:
Os estimadores de MQO são não viesados.
Os estimadores de MQO tem a variância mínima entre todos os estimadores lineares não viesados.
Mas… essas propriedades (muito boas) dependem de um conjunto de Hipóteses:
Hipóteses
A relação populacional é linear nos parâmetros com um erro aditivo.
A variável \(X\) é exógena, i.e., \(\mathop{\boldsymbol{E}}\left[ u \mid X \right] = 0\).
A variável \(X\) tem variação. E se houver múltiplas variáveis explicativas, elas não são perfeitamente colineares.
Os erros populacionais \(u_i\) são independentes e idênticaticamente distribuídos como VA normais com média zero \(\left( \mathop{\boldsymbol{E}}\left[ u \right] = 0 \right)\) e variância \(\sigma^2\) (i.e., \(\mathop{\boldsymbol{E}}\left[ u^2 \right] = \sigma^2\)). Distribuídos independentemente e com média zero implicam conjuntamente \(\mathop{\boldsymbol{E}}\left[ u_i u_j \right] = 0\) para qualquer \(i\neq j\).
Hipóteses
Hipóteses diferentes garantem propriedades diferentes:
Hipóteses (1), (2) e (3) tornam os estimadores MQO não viesados.
A Hipóteses (4) nos dá um estimador não viesado da variância do estimador de MQO.
Em Econometria, estudamos as muitas maneiras pelas quais o mundo real pode violar essas suposições. Por exemplo:
Relações não lineares em nossos parâmetros/distúrbios (ou especificações erradas).
Erros que não são distribuídos de forma idêntica e/ou não são independentes.
Violações da exogeneidade (especialmente o viés de variável omitida).
Valor Esperado (Esperança) Condicional
Para muitas aplicações, a hipótese mais importante é exogeneidade, i.e.,
\[ \begin{align} \mathop{E}\left[ u \mid X \right] = 0 \end{align} \]
mas o que isso realmente significa?
Para qualquer valor de \(X\), a média dos resíduos deve ser zero.
Por exemplo, \(\mathop{E}\left[ u \mid X=1 \right]=0\) e \(\mathop{E}\left[ u \mid X=100 \right]=0\)
Por exemplo, \(\mathop{E}\left[ u \mid X_2=\text{Grande Empresa} \right]=0\) e \(\mathop{E}\left[ u \mid X_2=\text{Pequena Empresa} \right]=0\)
Aviso: \(\mathop{E}\left[ u \mid X \right]=0\) é mais restritiva que \(\mathop{E}\left[ u \right]=0\)
\(\mathop{E}\left[ u \mid X \right] = 0\)
\(\mathop{E}\left[ u \mid X \right] \neq 0\)
Tem mais?
Até este ponto, sabemos que o OLS tem algumas boas propriedades e sabemos como estimar os parâmetros de um modelo de regressão linear simples via MQO.
Nosso fluxo de trabalho atual:
Mas como realmente aprendemos algo com este exercício?
Há mais
Mas como realmente aprendemos algo com esse exercício?
Precisamos ser capazes de lidar com a incerteza. Entra: Inferência Estatística
Aprendendo com nossos erros
Como nossa simulação anterior apontou, nosso problema com incerteza é que não sabemos se nossa estimativa está próxima ou distante do parâmetro populacional desconhecido.1
No entanto, nem tudo está perdido. Podemos usar os erros \(\left(e_i = y_i - \hat{y}_i\right)\) para ter uma ideia de quão bem nosso modelo explica a variação observada em \(y\).
Quando nosso modelo parece estar fazendo um “bom” trabalho, podemos estar um pouco mais confiantes em usá-lo para aprender sobre a relação entre \(y\) e \(x\).
Agora, precisamos apenas formalizar o que um “bom trabalho” realmente significa.
Aprendendo com nossos erros
\[ \hat{\sigma}^2 = s^2 = \dfrac{\sum_i e_i^2}{n - k} \]
sendo \(k\) o número de parâmetros que estimamos (por exemplo, \(\beta_0\) e \(\beta_1\) fornecem \(k=2\)).
Aprendendo com nossos erros
Então estimamos a variância de \(\hat{\beta}_1\), que para regressão linear simples é:
\[ \mathop{\text{V}} \left( \hat{\beta}_1 \right) = \dfrac{s^2}{\sum_i \left( x_i - \overline{x} \right)^2} \]
o que mostra que a \(V(\hat{\beta}_1)\)
Aprendendo com nossos erros
Mais comum: O erro padrão de \(\hat{\beta}_1\)
\[ \mathop{\hat{\text{SE}}} \left( \hat{\beta}_1 \right) = \sqrt{\dfrac{s^2}{\sum_i \left( x_i - \overline{x} \right)^2}} \]
Lembre-se: O erro padrão de um estimador é o desvio padrão da distribuição amostral do estimador.
Aprendendo com nossos erros
Exibir o erro padrão dos estimadores é o padrão da função lm em R:
Aprendendo com nossos erros
Usamos o erro padrão de \(\hat{\beta}_1\), junto com \(\hat{\beta}_1\) em si, para aprender sobre o parâmetro \(\beta_1\).
Após derivar a distribuição amostral de \(\hat{\beta}_1\), temos duas opções (relacionadas) para inferência estatística formal (aprender) sobre nosso parâmetro desconhecido \(\beta_1\):
Intervalos de confiança: Usamos \(\hat{\beta}_1\) e seu erro padrão para criar um intervalo de confiança o qual, quando repetido, geralmente conterá o parâmetro verdadeiro.
Testes de hipóteses: Determinamos se há evidências estatisticamente significativas para rejeitar um valor hipotético ou intervalo de valores.
Distribuição Amostral de \(\hat{\beta}\)
Queremos mostrar que, quando a variância dos erros \(\sigma^2\) é desconhecida e substituída pela sua estimativa \(\hat{\sigma}^2\), os estimadores normalizados seguem uma distribuição \(t\) de Student.
1: Distribuição Normal dos Estimadores
Partimos da suposição de que os erros \(\epsilon_i\) no modelo de regressão linear simples são i.i.d. \(N(0, \sigma^2)\). Sob essa suposição, sabemos que os estimadores \(\hat{\beta}_0\) e \(\hat{\beta}_1\) são variáveis aleatórias que seguem distribuições normais:
\[ \hat{\beta}_1 \sim N\left(\beta_1, \frac{\sigma^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}\right) \]
\[ \hat{\beta}_0 \sim N\left(\beta_0, \sigma^2 \left(\frac{1}{n} + \frac{\bar{X}^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}\right)\right) \]
2: Estimativa da Variância Residual
A variância dos erros \(\sigma^2\) é desconhecida, então usamos a estimativa da variância residual \(\hat{\sigma}^2\):
\[ \hat{\sigma}^2 = \frac{1}{n-2} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 \]
Aqui, \(\hat{\sigma}^2\) é um estimador não viesado da variância \(\sigma^2\) e é baseado nos resíduos do modelo.
3: Erro Padrão e Normalização
O erro padrão do estimador \(\hat{\beta}_1\) (ou \(\hat{\beta}_0\)) é dado por:
\[ \text{SE}(\hat{\beta}_1) = \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^{n} (X_i - \bar{X})^2}} \]
Agora, normalizamos \(\hat{\beta}_1\) usando o erro padrão estimado:
\[ \frac{\hat{\beta}_1 - \beta_1}{\text{SE}(\hat{\beta}_1)} = \frac{\hat{\beta}_1 - \beta_1}{\frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^{n} (X_i - \bar{X})^2}}} \]
4: Distribuição \(t\) de Student
Para estabelecer a distribuição \(t\), consideramos duas propriedades:
\[ Z = \frac{\hat{\beta}_1 - \beta_1}{\sqrt{\text{Var}(\hat{\beta}_1)}} = \frac{\hat{\beta}_1 - \beta_1}{\frac{\sigma}{\sqrt{\sum_{i=1}^{n} (X_i - \bar{X})^2}}} \sim N(0, 1) \]
\[ \frac{(n-2)\hat{\sigma}^2}{\sigma^2} \sim \chi^2_{n-2} \]
5: Distribuição \(t\) como uma Razão
A distribuição \(t\) de Student é definida como a razão entre uma variável \(Z\) normal padrão e a raiz quadrada de uma variável qui-quadrado (\(\chi^2\)) dividida por seus graus de liberdade. Aplicando essa definição ao caso do estimador \(\hat{\beta}_1\), temos:
\[ \frac{\hat{\beta}_1 - \beta_1}{\text{SE}(\hat{\beta}_1)} = \frac{Z}{\sqrt{\frac{\chi^2_{n-2}}{n-2}}} \sim t_{n-2} \]
Assim, a expressão $ $ segue uma distribuição \(t\) de Student com \(n-2\) graus de liberdade.
\(Z\): A normalização de \(\hat{\beta}_1\) usando a variância conhecida segue uma distribuição normal padrão.
\(t\): A distribuição \(t\) surge ao substituir a variância verdadeira \(\sigma^2\) por sua estimativa \(\hat{\sigma}^2\), o que incorpora a incerteza adicional devido à estimativa da variância residual.
Intervalos de Confiança
Construímos intervalos de confiança de nível \((1-\alpha)\) para \(\beta_1\):
\[ \hat{\beta}_1 \pm t_{(\alpha/2,\text{df})} \, \mathop{\hat{\text{SE}}} \left( \hat{\beta}_1 \right) \]
\(t_{\alpha/2,\text{df}}\) denota o quantil \(\alpha/2\) de uma distribuiçào\(t\) com \(n-k\) graus de liberdade.
Por exemplo, 100 obs., dois coeficientes (i.e., \(\hat{\beta}_0\) e \(\hat{\beta}_1 \implies k = 2\)), e \(\alpha = 0.05\) (para um intervalo de confiança de 95%) nos dá \(t_{0.025,\,98} = -1.98\)
Intervalos de Confiança
Construímos intervalos de confiança de nível \((1-\alpha)\) para \(\beta_1\):
\[ \hat{\beta}_1 \pm t_{(\alpha/2,\text{df})} \, \mathop{\hat{\text{SE}}} \left( \hat{\beta}_1 \right) \] Exemplo:
# A tibble: 2 × 5
term estimate std.error statistic p.value
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) 2.53 0.422 6.00 3.38e- 8
2 x 0.567 0.0793 7.15 1.59e-10
A estimativa do interval com 95% de confiança é então: \(0.567 \pm 1.98 \times 0.0793 = \left[ 0.410,\, 0.724 \right]\)
Intervalos de Confiança
O que isso significa?
Informalmente: O intervalo de confiança nos dá uma região (intervalo) na qual podemos depositar alguma confiança de que contenha o parâmetro.
Mais formalmente: Se repetidamente amostrarmos de nossa população e construirmos intervalos de confiança para cada uma dessas amostras, \((1-\alpha)\) por cento de nossos intervalos (por exemplo, 95%) conterá o parâmetro populacional em algum lugar no intervalo.
Testes de Hipóteses
Em muitas aplicações, desajaos saber o que a evidência estatística diz sobre teorias existentes.
Queremos testar hipóteses apresentadas por autoridades, políticos, economistas, cientistas, amigos, vizinhos estranhos, etc.
Aumentar a presença policial reduz a criminalidade?
Construir um muro gigante reduz a criminalidade?
Fechar um governo afeta negativamente a economia?
Os padrões de qualidade do ar melhoram a saúde e/ou reduzem empregos?
Testes de Hipóteses
teste t: Uma hipótese (nula) afirma que \(\beta_1\) é igual a um valor \(c\), i.e., \(H_o:\: \beta_1 = c\)
A partir das propriedades do OLS, podemos mostrar que a estatística de teste
\[ t_\text{stat} = \dfrac{\hat{\beta}_1 - c}{\mathop{\hat{\text{SE}}} \left( \hat{\beta}_1 \right)} \]
possui uma distribuição \(t\) com \(n-k\) graus de liberdade.
Testes de Hipóteses
\[ \left|t\_\text{stat}\right| > \left|t\_{1-\alpha/2,\,df}\right| \]
o que implica que a estatística de teste é mais extrema do que o valor crítico.
Como alternativa, podemos calcular o valor-p que acompanha a estatística de teste, e que efetivamente nos dá a probabilidade de obter uma estatística de teste mais extrema considerando que a hipótese nula fosse verdadeira.
Valores-p muito pequenos (geralmente < 0,05) significam que seria improvável obter os resultados se a hipótese nula fosse realmente verdadeira — tendemos a rejeitar o nulo para valores-p abaixo de 0,05.
Testes de Hipóteses
# A tibble: 2 × 5
term estimate std.error statistic p.value
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) 2.53 0.422 6.00 3.38e- 8
2 x 0.567 0.0793 7.15 1.59e-10
\(t_\text{stat} = 7.15\) e \(t_\text{0.975, 28} = 2.05\)